2013/12/31

文件自動摘要

拜傳播科技日新月異之賜,現代人閱讀習慣已經明顯的改變。閱聽大眾期待的是簡短的、視覺化的刺激,Track Social 研究 Facebook 上留言長度與回應數的關係,顯示越短的內容有越多人回應。雖然我們不需要都站在憂國憂民的角度去憂心未來,但是這樣的變化背後有個潛在的技術需求:如何自動幫一篇文章做出摘要?

「自動摘要」(Automatic Summarization)的研究由來已久,方法大致分成三種:

  • 萃取式摘要(Extraction-based summarization):從文章裡摘取重點句,組成摘要。
  • 抽象式摘要(Abstraction-based summarization):分析文章中的抽象概念,進而生成摘要,由於涉及「自然語言生成」的步驟,技術難度較高,算是自動摘要的終極目標。
  • 輔助式摘要(Aided summarization):電腦輔助,然後由人工完成摘要,在實務上比較可行。

最近的一篇回顧式文章, A Survey of Text Summarization Techniques (Ani Nenkova, Kathleen McKeown, 2012),介紹了現階段「萃取式摘要」這個領域的發展,以及目前廣被使用的摘要系統的特色。這裡筆者簡單的摘譯目前實作上的流程。

文件自動摘要的流程,大致上可以分為三個步驟:

1. 產生中介表徵(Intermediate representation)
電腦並不會真的像人一樣看懂字句(譯按:話說回來,人也不見得真的看得懂),所以把字句轉換成一些抽象的指標,像是「與某主題的相關性」、詞頻、TF.IDF、關鍵詞的共生性(coocurrence)、概念相關性等等。採用哪些指標,跟系統架構背後的語言學模型有關。

2. 為句子評分(Score sentences)利用中介表徵來為文章裡的每個句子評分,評分的方式也跟系統架構背後的語言學模型有關。

3. 由句子產生摘要(Select summary sentences)
每個句子有了分數之後,摘要系統最後必須從所有句子當中選出適當的組合,當做文件的摘要。

每個步驟都有相當多的細節,尤其是數十年來語言模型(language model)也持續推陳出新,也難在有限的篇幅裡說清楚,所以我們就在此就暫且打住。


雖然說學術理論有很多講究,但是其實很多 RSS feed 產生器就只是簡單的摘取文章最前面的若干字,實際上讀起來效果也是不錯的。有的時候,太去細究「為什麼」,結果反而變成過度詮釋,落入下乘。世界上很多事情,不見得有「為什麼」的。


2013/12/29

「父母」是企業招募千禧世代的秘密武器!?

[原文]Parents Ma Beour Secret Weapon For Recruiting and Retaining Millennials

雖然人資不是筆者的專長,不過這個現象蠻有趣的。

之前看到一篇文章,說有間外商來台設分公司徵人,應徵錄取者很多最後沒來上班,理由是「父母說沒聽過這間公司,不贊成我來」。於是這間公司的負責人針對「父母」設計了一套文宣,讓錄取者可以很快的讓父母了解這家公司在美國是已經相當有規模的公司,之後果然錄取者到職率大幅提昇。

這情況發生在華人社會是相當可以理解的,但是昨天看到這篇 HBR 的文章,講的是美國 Fortune top 10 的公司遭遇的情形,就有點匪夷所思了。難道是說西方的千禧世代跟家庭的連結也變得很強嗎?

總之,Karie Willyerd 提供了五點心法:

  1. 在新進員工訓練時邀請父母一起參加。
  2. 提供父母免費訓練,然後讓他們教給自己的孩子。
  3. 舉辦「帶父母上班」日。
  4. 面試時也跟父母談,然後在招募文宣裡也提供「父母的證詞」。
  5. 企業溝通策略中也把父母包含進去。
希望未來不是「媽寶媽寶滿天下」的世界。

2013/12/26

身後59年,Turing 終獲平反

這應該算是今年聖誕假期蠻受討論的新聞之一,尤其是資訊科技界。或許一般人比較不知道 Turing 是誰,以下是關於他簡短的介紹,以及「平反」所謂何來。

艾倫·圖靈Alan Turing) ,英國數學家、邏輯學家,也被視為電腦科學之父。

圖靈對於人工智慧的發展有非常重要的貢獻,他曾寫過一篇名為《機器會思考嗎?》(Can Machines Think?)的論文,其中提出了一種用於判定機器是否具有智慧的試驗方法,即圖靈測試(Turing Test)。時至今日,每年都還有 Turing Test 的比賽。此外,圖靈提出的著名的圖靈機模型(Turing Machine),為現代電腦的邏輯工作方式奠定了基礎。

圖靈獎(Turing Award),是計算機協會(ACM)於1966年設立的,專門獎勵那些對電腦科學領域作出重要貢獻的個人,而這個獎設立目的之一便是紀念這位現代電腦、計算機的奠基者。圖靈獎是計算機界最負盛名的獎項,獲獎者必須是在該領域具有持久而重大的貢獻,也有「計算機界諾貝爾獎」之稱。

圖靈是著名的男同性戀者之一,並因為其性傾向而遭到當時的英國政府迫害,職業生涯盡毀。英國警方將他控以「明顯的猥褻和性顛倒行為」罪名,他沒有申辯,終被定罪。在公審後,他被給予了兩個選擇:坐牢或女性荷爾蒙(雌激素)注射「療法」(即化學閹割)。他最後選擇了雌激素注射。

1954年,圖靈因食用浸過氰化物溶液的蘋果死亡。很多人相信他的死是有意的,並判決他的死是自殺。

蘋果公司的商標有時會被誤認為是源於圖靈自殺時咬下的半個蘋果,但該圖案的設計師和蘋果公司都否認了這一說法。而公司創辦人史蒂夫·賈伯斯在接受英國廣播公司(BBC)電視節目《QI》時被主持人史蒂芬·弗萊問到此事時說:「這件事(LOGO向圖靈致敬)不是真的,但是,上帝啊,我們希望它是真的。」("It isn't true, but God, we wish it were.")

在2009年9月10日,一份超過3萬人的請願簽名,使英國首相戈登·布朗在《每日電訊報》撰文,因為英國政府當年以同性戀相關罪名起訴圖靈並定罪,導致他自殺身亡,正式向艾倫·圖靈公開道歉。

至2012年,有21000多人簽名請願,要求英國政府追贈圖靈死後赦免狀,但被當局拒絕。英國上議院的McNally勛爵解釋說,死後赦免狀是不合適的,因為圖靈是根據當時的法律被定罪。

2013年12月24日,英國司法部長宣布英國女王伊莉莎白二世赦免這位上世紀50年代因同性戀行為被定罪的英國著名數學家、密碼學家、電腦科學之父。

雖然「死後平反」對逝者毫無實惠之處(其實生前平反好像也是),但是某種程度上表現出社會集體價值觀的變遷,昭示著在我們的這個年代,那些敢做出與主流價值不符的選擇的人,能受到更多的包容,也有更多揮灑的空間。


[Turing 的傳記電影]

Breaking the Code (TV Movie 1996) - IMDb






2013/12/23

電擊你的腦:危險瘋狂的科學實驗?

近來關於顱外微量電擊的研究還不少。

2008 年,德國學者發現在頭顱外部施予隨機的微量電擊可以增進腦部活動,一群英國人用這個概念嘗試了一系列實驗,發現可以提高數學成績,今年發表在學術期刊上。


Transcranial Stimulation 

This is an image of a different type of transcranial stimulation than the type researchers studied below. The transcranial random noise stimulation study below required headgear that was about as involved as this.


上星期的自然(Nature)也刊登了一篇文章,說電擊治療可以消除不好的記憶,就像電影 "Eternal Sunshine of the Spotless Mind裡演的一樣。

於是筆者查了一下有沒有相關的器材,的確找到了一系列 DIY tDCS 的文章。當中比較驚悚的,是一位勇敢的美國高中生,依照網路上的「廉價 tDCS 設計」製作,然後拿自己做實驗。一開始還把電擊放錯邊,造成情緒低落、成績下降,可是他還是勇敢的繼續嘗試到底電哪裡成績才會提高,真的是勇氣可嘉。

下面是他介紹自己實驗的影片:



所幸有研究指出,這類電擊造成的效果都是暫時性的,所以即使接錯邊,也還不致於造成永久的傷害。


2013/12/22

[摘譯]從統計的觀點看「快思慢想」這本書

[原文] A statistical review of 'Thinking, Fast and Slow' by Daniel Kahneman - Burns Statistics

[譯按]
雖然最近對於這本書的中譯本有不少的討論,不過這篇書評講的是英文版的原著,所以並不屬於論戰的一部分。這篇文章是一個統計學家對這本書跟統計有關的部份的評論,筆者只摘譯其中的部份。

[摘譯]
作者 Daniel Kahnenman 說,他跟 Amos Tversky 合作的一系列研究(也就是 Kahnenman 得到2002年諾貝爾經濟學講的研究,當時 Tversky 已經逝世),最初的問題是:「人若全憑直覺,會是好的統計學家嗎?」(Are humans good intuitive statisticians?)

答案是「不是」。

因為我們的腦是設計用來「生存」的,而不是用來尋求真理的。
我們的心智其實是非常卓越的,因為我們很少被難倒。...我們常常能回答我們不完全了解的問題,而根據的往往是我們無法解釋或自圓其說的證據。
書中有很多的篇幅在描述我們思考的兩種系統:

  • 系統一是不費力的,快速的,捷徑式的,無意識的。
  • 系統二是費工夫的,比較慢的,有時候會依循邏輯的。

如果要講「統計直覺」,「直覺」應該是系統一,但是「統計」常常是跟事實表象不符的,也就是跟直覺相反的。所以我們如果憑直覺,從來不會是好的統計學家。

系統一會讓我們捕風捉影,過度推論。如果從生存的角度來看,以為看見一隻不存在的老虎,頂多被笑大驚小怪,但如果沒看到一隻存在的老虎,那可就要人命了。


貝氏推論(Bayesian Reasoning)其實可以用兩個原則來描述:
  • 先根據一個約略的機率來做判斷
  • 質疑所觀察到證據的可靠性,修正前面的機率
但其實人根本不會這樣做,反而比較常出現的是「理論造成的盲點」:一旦你接受了某個理論(或觀點),你會自動忽視這個理論的瑕疵,以及任何相違背的證據。


最後,還有一段小影片,說明人類思考常常不合邏輯之處。

2013/12/21

[摘譯] 2014 年 Big Data 產業的趨勢預測

[原文] Big Data 2014: Powering Up the Curve

[摘譯]
1. Big Data 的在商用領域成長將會聚焦在「混合式資料」的分析上,用多元性的資料來更全面的勾勒顧客的樣貌。

2. Big Data 傳統上是屬於企業資訊部門的工作範疇:資料庫管理,但是實際的應用卻在企業的各個層面,因此更需要「跟其他人好好相處」。

3. 講到 Big Data,多數人可能第一個想到的術語就是 Hadoop,其實目前有很多開源社群的專案都是 Big Data 技術的基石,2014年我們可以看到開源社群會有更多的創新。

4. 把 Big Data 作為一個儲存的平台,目的就是為了未來的「分析」做準備,而未來的分析工具絕對不會跟現在的一樣,我們也可以期待更多分析工具的創新。

2013/12/16

SlideSahre #Zeitgeist2013

SlideShare是一個投影片和文件檔的分享網站,用戶可以上傳自己的文件並展示出來。
該網站在2006年10月4日推出。2012年5月4日,職業社交網站LinkedIn斥資1.19億美元將其收購。

日前 SlideShare 公布了 #Zeitgeist2013,顯示了大眾對「簡報」方式跟主題的喜好(Zeitgeist 是德文字,意思是「某段時間的代表精神」,常翻譯作「時代精神」,跟「年度代表字」的意思很像,但是是用「一種想法」來表達,這幾年已經普遍的使用在各種主流媒體上)

[摘要]
1. 人們想要「短」的,「視覺化」的內容
2. 最多人看的是「趨勢報告」型跟教育類的簡報
3. 最多人討論的話題:汽車跟管理
4.新趨勢:
-- 行動化(大家在手機上看)
-- 社群媒體帶來高流量
-- 墨西哥、巴西、美國持續是最佳觀眾
-- 印尼跟愛爾蘭成長最快
-- 上傳貢獻最多的國家:美國,印度,西班牙



2013/12/15

[摘譯]英文好的國家經濟表現比較好


[原文]Countries with Better English Have Better Economies - Christopher McCormick - Harvard Business Review

[摘譯]
研究發現,一個國家平均的英文能力越好(EF English Proficiency Index, EF EPI),經濟表現就越好(GNI, GDP);即便是在個人層次,良好的英文能力也可以讓所得比國家平均高30%~50%。

除了經濟表現,英文能力與生活品質的相關性也很高,下圖是EF EPI 分數與「人類發展指數」(Human Development Index)的分布圖。


對商業領袖來說,這樣的研究結果,提醒了我們在思考全球策略布局時可以考慮的幾件事:

  • 哪些國家最積極的在增進英文能力,以期能吸引跨國企業?
  • 哪些新興市場會因為英文能力欠佳而影響發展機會?
  • 我的招募策略應該聚焦在哪些國家?
  • 如果考慮要向海外擴張,哪些國家對我的(以英語為母語的)外派員工適應阻力最小?


[譯按]
從小就被教育要「學好英文」,不知道什麼時候上面的「英文」可以換成「中文」?



2013/12/13

Google 的 deep learning 系統與自動化的未來

日前的一篇報導「能自行總結出「貓」這個概念的深度學習系統」,簡單的介紹了 Google 在做的 deep learning 系統,可以「不必人去教電腦,電腦就可以自行產生概念」。

人工智慧(Artificial Intelligence, AI)這個研究領域,大概在有電腦之前就存在了。早期一直是「規則」( rule-based,或者「演算法」 algorithm)的思維,認為所謂的「知識」,是一大堆「如果─就─」規則的組合,而這些規則需要人的智慧來發掘,然後教給電腦。

一直到了80年代末期,基於「統計」的機器學習(machine learning)想法才慢慢浮上檯面。如果去問一些資深學者,還有很多人會振振有詞的說「機器學習不是演算法!」,因為在這個架構下,規則是電腦自己從資料裡去學的,人做的是「準備資料」跟「設計讓電腦怎麼學」,感覺上人的不可取代性就降低了。然而在實務應用上的成功,讓機器學習普遍的運用在各種領域,語音辨識、影像辨識、機器翻譯...,巨資料的商業化應用,背後很大的成份,分析,也是要倚賴機器學習。

Google 算是把機器學習商業化最成功的公司,這個領域的最前線大概也是靠他們推動了。

或許有人會問,Google 做這個要幹嘛?

如果我們想像的未來當中,包括能夠自動幫我們整理東西的電子產品,那麼 deep learning 就是不可或缺的基礎元件:電腦學會了自行分類、形成概念,那麼你上傳到 Picasa (或是你的 Android 手機自動備份到 Google+)的照片,以後就會依照主題自動整理好,而不必有任何人去看你的照片內容。

然後呢,電腦會慢慢的「理解」你的狀態和習性,context aware computing 在 convenience 跟 creepy 之間的界線會越來越模糊。

[摘譯] 了解中國消費者

[原文] Understanding Chinese Consumers
[摘譯]
  1. 對價格敏感,有品牌意識。
  2. 中國普遍缺乏信任。
  3. 一胎化讓「孩子」成為消費要角。
  4. 中國消費者在轉變:握有更多資訊,思考更細密,更積極。